Hadoop 面试题

Hadoop 中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。

1.请说下HDFS读写流程；

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

HDFS 写流程：

1、客户端发送上传请求，并通过RPC与NameNode建立通信NameNode检查用户是否有上传权限，上传的文件在HDFS对应的目录下是否同名如果其中任何一个不满足，就会直接报错如果两者都满足，将向客户端返回一个可以上传的消息；

2、客户端根据文件大小划分文件，默认为128M，向NameNode发送请求，请求将第一块上传到哪些服务器；

3、收到请求后，NameNode根据网络拓扑、机架感知和副本机制分配文件，并返回可用DataNode的地址；

4、接收到地址后，客户端与服务器地址列表中的一个节点进行通信，比如A，本质上是RPC调用建立管道a收到请求后会继续调用B，B会调用C来完成整个管道的建立，并逐步返回给客户端；

5、客户端开始向A发送第一个块(先从磁盘读取数据，然后放入本地内存缓存)，这个块是基于包的(64kb)，A收到一个包就会发送；

发送给B，然后B发送给c，A在发送完一个包后会将其放入一个响应队列中等待响应；

6、数据被分成数据包，依次在流水线上传输在管道反向传输中，逐个发送ack(命令回答正确)，最后管道中第一个DataNode节点A向客户端发送pipelineack；7.当一个块传输完成后，客户端请求NameNode再次上传第二个块，NameNode为客户端重新选择三个DataNode；

HDFS 读流程：

1、客户端向NameNode发送RPC请求请求文件块的位置；

2、 NameNode收到请求后会检查用户权限以及是否有这个文件如果它们都匹配，它将根据需要返回部分或全部阻止列表对于每个块，NameNode将返回包含该块副本的DataNode地址；这些返回的DataNode地址会根据集群拓扑得到DataNode到客户端的距离，然后按照两个规则进行排序:网络拓扑中离客户端最近的排在第一位；心跳机制中超上报的DataNode状态陈旧，较低；

1.请说下HDFS读写流程；
2. HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办
3. HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办
4. NameNode 在启动的时候会做哪些操作
5. Secondary NameNode 了解吗，它的工作机制是怎样的
6. Secondary NameNode 不能恢复 NameNode 的全部数据，那如何保证NameNode 数据存储安全
7. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂
8. 小文件过多会有什么危害，如何避免
9. 请说下 HDFS 的组织架构
10. 请说下 MR 中 Map Task 的工作机制
11. 请说下 MR 中 Reduce Task 的工作机制
12. 请说下 MR 中 Shuffle 阶段
13. Shuffle 阶段的数据压缩机制了解吗
14. 在写 MR 时，什么情况下可以使用规约
15. YARN 集群的架构和工作原理知道多少
16. YARN 的任务提交流程是怎样的
17. YARN 的资源调度三种模型了解吗
1.hdfs 写流程HDFS 读写流程
2.hdfs 读流程HDFS 读写流程
3.hdfs 的体系结构
4. 一个 datanode 宕机,怎么一个流程恢复
5. hadoop 的 namenode 宕机,怎么解决
6. namenode 对元数据的管理
7. 元数据的 checkpoint
8. yarn 资源调度流程
9. hadoop 中 combiner 和 partition 的作用
10. 用 mapreduce 怎么处理数据倾斜问题？
11. shuffle 阶段,你怎么理解的
13. MapReduce 优化经验
14. 分别举例什么情况要使用 combiner，什么情况不使用？
15. MR 运行流程解析
16. 简单描述一下 HDFS 的系统架构，怎么保证数据安全?
17. 在通过客户端向 hdfs 中写数据的时候，如果某一台机器宕机了，会怎么处理
18. Hadoop 优化有哪些方面
19. 大量数据求 topN(写出 mapreduce 的实现思路）
20. 列出正常工作的hadoop 集群中hadoop 都分别启动哪些进程以及他们的作用
23. 简要描述安装配置一个 hadoop 集群的步骤
24. fsimage 和 edit 的区别
25. yarn 的三大调度策略
26. hadoop 的 shell 命令用的多吗?,说出一些常用的
27. 用 mr 实现用户 pv 的 top10？
28. 一个文件只有一行，但是这行有 100G 大小，mr 会不会切分，我们应该怎么解决
29. hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化
1.2.1 Hadoop常用端口号
1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建
1.2.3 HDFS读流程和写流程
1.2.4 MapReduce的Shuffle过程及Hadoop优化（包括：压缩、小文件、集群优化）
1.2.5 Yarn的Job提交流程
1.2.6 Yarn的默认调度器、调度器分类、以及他们之间的区别
1.2.7 项目经验之LZO压缩
1.2.8 Hadoop参数调优
1.2.9 项目经验之基准测试
1.2.10 Hadoop宕机
1.2.11 Hadoop解决数据倾斜方法
1.2.12 集群资源分配参数（项目中遇到的问题）
1.2.1 Hadoop常用端口号
1.2.2 Hadoop配置文件以及简单的Hadoop集群搭建
1.2.3 HDFS读流程和写流程
1.2.4 HDFS小文件处理
1.2.5 HDFS的NameNode内存
1.2.6 NameNode心跳并发配置
1.2.7 纠删码原理
1.2.8 异构存储（冷热数据分离）
1.2.9 Shuffle及优化
1.2.10 Yarn工作机制
1.2.11 Yarn调度器
1.2.12 项目经验之基准测试
1.2.13 Hadoop宕机
1.2.14 Hadoop解决数据倾斜方法

1.请说下HDFS读写流程；​

1.请说下HDFS读写流程；